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摘 要 : 针对 传统 协同 过 滤 在 推荐 过 程 中 存在 的 稀疏 性 、 扩 展 性 以 及 个 性 化 问题 ， 通 过 引入 算法 集成 的 思想 ， 旨 在 优 

化 和 改进 一 种 新 型 的 基于 Spark 平台 下 的 混合 协同 过 滤 。 借 鉴 了 Stacking 集成 学 习 思 想 ， 将 多 个 弱 推 荐 器 线性 加 权 组 

合 ， 形 成 综合 性 强 的 推荐 器 。 首 先 ， 算 法 基于 近邻 协同 过 滤 ， 结 合 分 类 、 流 行 度 、 好 评 度 等 对 近邻 相似 度 计 算 策 略 进 

行 优化 ， 旨 在 改善 相似 度 的 合理 性 以 及 相似 度 计算 的 复杂 度 ， 在 一 定 程度 上 改善 了 评分 稀疏 性 的 问题 ; 同时 ， 该 算法 

结合 Spark 分 布 式 计算 平台 ， 充 分 借鉴 分 布 式 平台 的 优点 ， 利 用 其 流 式 处 理 以 及 分 布 式 存储 结构 等 特性 ， 设 计 并 实现 
了 一 种 推荐 算法 的 增 量 迭 型 ,解决 了 协同 过 滤 算 法 扩展 性 和 实时 性 问题 。 实 验 数 据 采 用 UCI 公用 数据 集 MovieLens 和 

NetFlix 电影 评分 数据 ， 实 验 结果 表明 ,改进 算法 在 推荐 个 性 化 、 准 确 率 以 及 扩展 性 上 都 有 不 错 的 表现 ， 较 以 前 同类 型 
度 的 提高 ， 为 推荐 系统 的 应 用 提供 了 一 种 可 行 的 算法 集成 方案 。 

关键 词 : 集成 学 习 ; 协同 过 滤 ; 稀 朴 性 ; 扩展 性 ; Spark 流 式 计 算 ; 增 量 模型 ; 分 类 
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Spark platform 
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Technology, Tsinghua University, Beijing 100084, China) 


Abstract: Aiming at optimizing and improving a hybrid collaborative filtering based on spark platform for its sparsity, scalability 
and personalized recommendation by using the method of algorithms integrated. This paper takes the model of Stacking 
algorithm integrated to integrate multiple weak recommender units in a linearly weighted into a comprehensive recommender. 
Firstly, this article optimizes the collaborative filtering based on the nearest neighbor by presorting and adjusting the similarity 
calculation strategy with popularity and praise degree, and improves the rationality and complexity of similarity calculation. It 
solves the problem of score sparsity to some extent. At the same time, this algorithm integrates closely distributed computing 
platform, which can make full use of the advantages of distributed platform to design and implement an increment iterative 
model of recommendation algorithm by using the Spark streaming and distributed storage structure and it solves the problem 
that collaborative filtering algorithm is hard to expand and make poor real-time performance. The experimental data uses UCI 
public data set named MovieLens and NetFlix films’ score, and the experimental results show that the improved algorithm has 
a good performance and makes great progress in personalized recommendation, accuracy and scalability compared with the 
previous algorithms. It provides a feasible algorithm integration scheme for the application of the recommended system. 
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classification. 

Ee 文 如 何 准确 高 效 地 寻找 到 需要 的 信息 已 经 变 得 越 来 越 难 ， 而 推 
时 荐 系统 是 解决 这 一 问题 的 有 效 手段 。 

在 互联 网 与 物 联 网 相交 的 大 数据 时 代 的 背景 下 ， 信 息 过 载 推荐 系统 0], 是 提供 信息 推荐 的 系统 ， 以 降低 用 户 寻找 有 效 
目前 互联 网 用 户 所 面临 严峻 的 问题 , 面 对 海量 的 数据 , 本 ”信息 的 难度 ， 增 加 用 户 与 网 络 信息 交互 的 体验 感 为 目的 算法 本 
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荐 系统 的 核心 是 推 迁 算 法 与 其 他 领域 认 知 科学 、 


所 以 , 所 以 本 文 寻求 的 性 化 ,新颖 性 以 及 扩展 性 


信息 检索 、 数 学 、 社 
叉 的 研究 方向 。 


其 理论 也 在 不 断 地 


合作 期 刊 
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期 望 的 最 大 化 ， 力 求 能 够 在 一 两 个 方面 能 够 较 以 
前 的 算法 有 所 突破 。 本 算法 有 三 个 创新 点 : 首 


先 本 文 提 出 算法 实 


世纪 九 十 年 代 , 历经 了 二 十 多 年 的 发 
V 用 也 变 得 越 来 越 广泛 , 尤其 是 


车 于 Spark 的 分 布 式 平 


与 单机 的 模型 实现 细节 
于 Spark 集群 ， 使 得 算法 的 并 行 能 力 大 大 提高 


在 当今 互联 网 与 物 联网 相交 汇 的 时 代 ， 许 多 大 型 的 


起 于 模型 的 推荐 算法 优点 
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台 , 搜索 引擎 , 新 闻 / 


4 推荐 个 性 化 效果 。 为 了 降低 


雅虎 、 微 博 、Netflix 等 
统 的 影子 。 此 外 ， 其 他 领域 诸如 


等 大 型 商务 、 oe 无 一 不 存在 推荐 的 是 协同 过 滤 算 法 进行 改进 , 只 


基于 内 容 的 推荐 相 


等 
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orn 应 用 。 


。 第 三 , 本 算法 实现 了 基 了 


系统 的 研究 就 变 得 迫切 而 有 意义 由。 
1 ”相关 工作 
传统 的 推 


实时 推荐 , 这 是 本 算法 的 一 大 亮点 。 本 算法 


F 增 量 模型 算法 ， 可 以 欠 代 计算 


于 是 多 种 算法 思 


想 的 融合 , 为 降低 本 文 算法 实现 上 


的 难度 , 决定 不 加 入 基于 内 容 的 


宗 上 所 述 ， 本 算法 是 考虑 了 基于 用 户 、 项 目 和 模型 


以 度 计算 量 , 利用 流行 度 、 好 评 


Sp 


为 两 大 类 : 基于 协同 过 滤 (CF)02 和 


本 文 的 研究 重 


示 对 用 户 相 似 度 与 物品 相似 度 进行 权 值 调整 ， 得 到 基于 用 


基于 内 容 方法 (Content-based)03]， 其 吕 


品 的 推荐 列表 ， 最 终于 最 小 二 乘法 推荐 


户 历 史 数据 记录 的 细 粒 度 


种 随机 森林 模型 有 点 类 似 , 本 文 也 


的 推荐 , 推 必 正 是 基于 这 种 弱 分 类 器 线性 


I 容 本 身 ， 如 新 闻 ，Web 文 


档 等 , 优 
ee 


出 的 模型 是 一 种 增强 的 混合 推荐 


改进 算法 详细 设计 


法 。 协 
es 
户 潜在 可 和 

了 用 户 的 隐私 。 


同 过 滤 ee 集体 智慧 学 习 原 


感 兴趣 的 物品 , 使 推 rl 与 结合 , 取长补短 , 以 期 
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昌 合 构成 强 分 类 器 的 思想 ， 最 终 求 


多 个 协同 过 滤 进 行 合理 
I 最 大 化 算法 的 运行 效率 和 预测 
前 性 。 概 况 而 言 , 本 算法 在 实现 的 过 程 中 主要 做 了 如 下 的 工 
数据 对 象 进行 预 分 类 、 Wt 


E 用 相似 度 计算 、 提 高 相似 度 


型 、 算 法 与 平台 的 集成 等 。 


于 用 户 协 同 过 滤 四 是 通过 
品 司 过 滤 分析 和 


， 采 用 Spark pi 
能 的 特点 , 除了 给 算法 的 运行 提 


于 用 户 协 所 
个 性 化 需求 , 但 过 于 
的 最 大 的 问题 - 扩 
有 SVDL1， 
最 大 优点 是 快 , 但 它 同样 没有 解 


计算 ,改善 了 协同 过 滤 算 法 存在 的 扩展 和 
Ni 先 分 类 技术 解决 评分 稀疏 性 带 来 的 
者 述 为 : 在 计算 相似 度 之 
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利用 分 布 式 高 可 


供 强大 的 计算 能 力 支 持 ， 
完成 了 算法 增 量 模型 的 


问题 。 


Ce 加 用 户 按照 标签 进行 分 类 ， 保 存 用 以 对 增 量 数据 


TI 


进行 展开 。 此前， 匹配 , 完成 模糊 推荐 。 接 


和 个 人 人 9 用 户 , 在 组 内 采取 建立 倒 查 表 等 方式 , 进一步 
原始 相似 度 的 计算 。 原始 相 
评 度 对 上 一 步 计算 的 用 户 相 
似 度 进行 调整 , 规则 是 : 降低 流行 度 高 的 物品 对 应 的 用 户 间 的 相 
似 度 , 提高 好 评 度 高 的 物品 对 应 用 广 


似 度 计算 完成 ， 利 用 流行 


. 


同 的 相似 度 。 得 到 用 户 相 似 


的 推荐 算法 在 外 


j 户 相似 度 确 定 合 适 的 近邻 , 按照 


新 颖 性 ， 


价值 ; 基于 Spark 平台 的 协同 过 滤 推 


荐 算法 


其 与 近邻 相似 度 以 


品评 分 , 形成 推荐 列表 。 


ED ， 供 助 于 分 布 式 平 
上 并 没有 过 多 改进 ; 


个 推荐 列表 , 同 理 运 用 和 拢 
推荐 列表 ， 最 后 做 线性 加 权 平 均 得 


现在 关于 推荐 算法 Spark 下 唯一 实现 的 是 


车 于 最 小 


a 这 样 做 的 理 


| | 
人 Lo 


若 三 个 推荐 列表 中 都 有 的 


， ee 车 只 有 其 中 一 个 推荐 ， 
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则 说 明 推 荐 的 可 信 度 不 高 , 评分 显然 会 降低 , 这 样 不 仅 可 以 为 推 
荐 提供 很 好 的 可 解释 性 , 还 能 提高 为 用 户 推荐 的 质量 。 模型 建立 
以 后 ， 通 过 交叉 验证 对 模型 进行 评估 与 选 所 
2.2 ”改进 推荐 算法 运行 流程 
基于 Spark 平台 的 推荐 算法 流 式 计算 过 程 ， 可 以 描述 为 : 
Spark 分 布 式 程序 启动 后 ， 首 先 通过 上 下 文 加 载 驱 动 ， 获 取 并 
配 计算 资源 ， 启 动 守护 进程 ;然后 Spark Streaming 从 Kafka 济 
息 队 列 中 读 入 实时 数据 , 进行 实时 数据 归 类 , 分 别 对 用 户 相似 
鬼 品 相似 度 进行 实时 计算 , 得 到 推荐 列表 ; 将 基于 最 小 二 乘 的 对 于 协同 过 滤 算 法 ， 即 对 用 户 行为 进行 预测 的 一 种 粗 粒度 
阵 分 解 得 到 的 推荐 列表 与 之 前 得 到 的 推荐 列表 加 权 合 并 ， 得 到 推荐 算法 。 其 特征 数据 主要 有 用 户 评分 , 用 户 属性 , 项 目 属性 ， 
更 新 最 终 推 荐 列表 以 及 其 预测 评分 。 如 图 1 所 示 。 用 户 点 击 率 ， 停 留 时 间 等 等 。 本 文 以 MoviesLen 和 NetFlix 电影 
本 评分 数据 作为 主要 的 输入 特征 数据 源 。 评 分 数据 最 为 典型 的 就 
| Result evaluate 是 ， 其 的 格式 为 “用 户 id: 电 影 id: 评 分 :时 间 戳 ” 这 种 数据 的 缺 
| 点 是 数据 信息 量 大 量 被 隐藏 , 需要 深度 挖掘 , 而 且 数 据 被 集中 在 
| 一 起 , 不 易 看 出 他 们 之 间 的 关系 。 所以, 在 计算 相似 度 前 ， 先 考 
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图 3 实时 与 离线 结构 


Ik 


2.3.3 用 户 、 项 目 预 分 类 


新 


II 


一 


Recomend 


eed | 虑 借助 用 户 属性 与 项 目 属性 对 不 同 的 用 户 以 及 物品 进行 简单 分 
ed ai 类 。 这样 一 个 举措 带 来 的 作用 非常 的 多 , 首先 降低 相似 度 计 算 的 
复杂 度 ; 其 次 是 降低 大 评分 数据 矩阵 的 稀疏 性 问题 ; 同时 可 以 为 
粗 粒 度 的 实时 推荐 带 来 便利 , 这 一 点 尤为 重要 , 它 解决 了 协同 过 
| 滤 的 冷 启 动 问题 。 

图 1 Spark 推荐 系统 运行 流程 et 、 韦 忆 
对 用 户 进行 分 类 过 程 如 下 : 将 “用 户 -物品 -评分 ” 表 建 立 倒 
2.3 算法 详细 设计 查 表 以 对 用 户 进 行 分 类 ， 如 图 4 所 示 ， 基 本 分 类 思想 是 将 具有 
2.3.1 平台 从 单机 转向 集群 相同 评分 项 的 用 户 或 者 项 目 归 为 一 类 。 没 有 评分 项 的 用 户 或 者 
单机 转向 集群 的 基本 思路 是 ， 利 用 开源 分 布 式 框架 将 廉价 ”物品 本 文 称 为 孤立 项 , 将 其 归 为 一 类 , 以 备 后 续 算法 推荐 做 准备 。 


PC 机 逮 辑 地 连接 起 来 , 构成 一 个 逻辑 整体 , 主 从 式 的 控制 结构 ， ”注意 , 在 用 户 类 或 者 项 目 归 类 的 时 , 需要 对 其 进行 编号 , 并且 赋 
主 节 点 对 从 节点 进行 任务 调度 、 分 发 和 容错 , 从 节点 实现 并 行 计 ”了 予 编号 实质 的 意义 ， 并 在 用 户 与 项 目的 不 同 编号 之 间 建 立 某 种 
算 , 此 结构 被 证 明 是 一 个 拥有 高 可 靠 、 高 并 发 , 高 性 能 计算 能 力 居 系 ,以 方便 对 用 户 进行 实时 快速 推荐 。 对 物品 的 分 类 过 程 与 用 
的 分 布 式 结构 。 实 验 集群 环境 由 五 台 物 理 机 组 成 的 集群 实战 环 户 原 理 相同 。 图 5 描述 的 分 类 过 程 用 户 与 项 目的 分 类 过 程 。 

境 ， 集 群 物理 结构 图 2-a， 集 群 逻 辑 结构 图 如 图 2-b。 
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图 2 a 集群 物理 结构 图 b 集群 逻辑 结 
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2.3.2 从 离线 推荐 变 为 在 线 推荐 
传统 推荐 往往 是 离线 算法 较 多 ， 但 本 文 却 同时 实现 了 在 线 
与 离线 计算 ， 借 助 了 第 二 代 分布 式 数据 处 理 架 构 Spark， 以 
Kafka03 作 为 消息 队列 提供 源 数据 , 运用 Spark Streaming 流 式 处 
理 实现 增 量 计算 模型 ， 离 线 部 分 主要 使 用 RDD，Spark SQL， 
Spark MLlib04 等 技术 进行 了 高 效 的 矩阵 运算 和 机 器 建 模 ; 以 
HDFS 作为 分 布 式 文件 系统 持久 化 基础 、 以 HBasel5 作 为 存储 
数据 库 ，HDFS 提供 了 集群 本 地 数据 持久 化 的 载体 09。 图 3 展 
示 了 实时 与 离线 计算 的 流程 结构 图 。 2.3.4 相似 度 计算 增 量 模型 
对 于 基于 用 户 的 协同 过 滤 , 除 稀 疏 性 问题 , 最 大 的 瓶颈 在 于 


图 5 用 户 项 目 分 类 示意 图 


201 td 


chinaXiv 


录用 稿 


在 线 推荐 产生 的 庞大 相 


度 都 需 


的 调整 ， 
氏 重 复 相 


似 度 计算 策略 
下 最 大 限度 降 


目标 是 保 
以 度 的 计算 量 


以 度 的 计算 。 对 于 每 一 次 增 量 所 有 相似 
要 重新 计算 , 计算 开销 太 大 , 所 以 考虑 在 此 需要 做 一 些 相 
E 在 对 相似 度 影响 最 小 的 情况 
对 于 物品 的 协同 过 


寺 滤 亦 


如 此 。 因 此 ， 本 算法 在 相似 度 计算 策略 上 做 了 如 下 调整 : 


a) 忽 


各 增 量 数据 对 原始 对 象 间 相 


似 度 的 影响 ,由 于 增 量 数 


据 


相对 原始 数据 较 小 , 对 原 对 象 间 相 似 度 影 


此 在 计算 相似 度 时 不 应 该 再 重复 计算 原始 对 象 间 的 相似 度 ， 
始 对 象 相 似 度 是 最 有 效 的 方式 。 
数据 ， 需 要 计算 的 是 新 增 对 象 间 的 相似 度 以 及 新 
体 计算 策略 是 : 增 量 输入 ， 


接 读 取 持久 化 原 


对 象 间 的 两 两 相似 度 。 具 


响 程 度 一 般 比 较 小 , 因 


ChinaX 
王 源 龙 ， 等 : 基于 Spark 的 混合 na Ye 


合作 期 于 


法 改进 与 实现 


满足 了 增 量 计算 模型 对 数据 量 的 需求 ， 这 是 一 种 精度 


杂 度 的 合理 平 
2.3.5 相似 度 计 算 方 ; 
对 于 基于 近邻 算法 的 协 


与 时 间 复 


同 过 滤 ， 往 往 是 通过 计算 对 象 间 


似 度 , 以 相似 物品 或 相似 用 户 的 语 


分 物品 来 进 


行 推荐 。 相似 度 的 


计算 方法 比较 多 ， 不 同 的 相似 度 
较 大 , 针对 用 户 相似 度 而 言 ， 目 


且 
而 对 于 新 增 的 
曾 对象 与 原始 
判断 增 量 id， 


若 对 象 已 存在 于 系统 , 则 该 对 象 不 参与 本 次 相似 度 计 算 , 将 其 持 


久 化 到 数据 库 ， 
定数 量 


且 将 对 


地 


象 出 现 的 次 数 加 1, 当 
时 ， 读 取 相 关 数 据 并 参与 相似 度 的 计算 。 


出 现 次 数 到 达 一 


象 的 预 分 类 ， 


布 式 


用 


b) 相 似 度 并 行 化 处 理 。 此 处 并 行 得 以 实现 ,得 
每 一 个 类 簇 内 部 联系 很 紧密 , 类 簇 
类 艇 间 的 相互 制约 影响 已 经 被 降 到 
行 计算 的 数据 格式 ， 实 现 了 
0c) 相似 度 的 更 新 与 持久 化 。 增 


最 低 ， 


更 新 , 若 无 相 同 
度 ， 以 及 一 


同 则 添加 。 持久 化 内 


与 先前 已 存在 的 相似 度 进行 合并 持久 化 到 数据 
包括 元 数 : 
些 中 间 状 态 变量 (相似 度 更 新 时 间 、 


容 


益 于 对 数据 对 
间 联 系 是 松散 的 ， 
形成 了 一 种 极 适合 分 


所 有 的 类 簇 的 并 行 计算 。 
量 相 似 度 计算 完毕 后 , 不 断 地 


库 ， 若 有 相同 即 
据 ， 计 算 后 的 相似 
一 标识 符 、 推 


荐 列表 更 新 时 间 以 及 对 应 唯一 标识 符 ) 等 。 


荐 模型 的 更 新 过 程 。 


者 述 了 相似 度 与 


dd) 相似 度 计算 次 数 简 化 分 析 。 
为 m, 增 


所 |. | 
里 门 


设 原 数 据 库 中 已 存在 
户 数 为 n"， 则 进行 两 两 全 组 合 相 似 度 计 算 次 数 为 


户 数 


S1eowr， 如 式 (D; 简化 后 相似 度 计算 次 数 后 相似 度 计算 的 次 数 为 


Scounts 如 式 (2) 1 


(m+n)x(m+n—1)...xm 


Sl count = Cm = 
nx(n-1l)x(n—2)...xl (1) 
n 项 
S2% =nxm+C? =nxm+nx(n—-l)/2 
coun 5 (2) 


从 式 (D)C) 可 以 推测 ， 当 原 ) 


2 项 


j 户 m>>n 的 时 ， 公 式 时 间 复 杂 


度 分 别 是 o(m^2) 和 o(m), 故 而 S2count <<S] count, 也 就 是 说 ， 即使 


当 m 很 大 的 时 候 ， 改 进 后 的 相似 


度 的 计算 次 数 数量 级 将 远 远 小 


于 简化 前 。 虽 然 方法 确实 在 当前 牺 


牲 了 少 


量 相似 度 精 度 , 但 是 却 


为 它 相 比 余弦 相似 度 多 了 归 一 


测量 


方法 对 


荐 的 结果 影响 上 


前 认为 皮尔 逊 相似 度 比较 好 , 因 
化 操作 ， 这 样 减 小 
分 的 习惯 所 带 来 的 相似 度 的 偏差 , 对 于 物品 间 的 相似 度 ， 


户 打 


了 不 同 用 


验 是 采用 余弦 相似 度 。 本 文中 借鉴 了 这 两 种 相似 度 计 算 方法 的 
原型 , 并 且 在 这 两 种 计算 计算 方法 的 基础 上 , 引入 了 流行 因子 和 

好 评 度 等 因子 分 别 对 某 些 相似 度 进行 权 值 调 整 ， 权 值 调 整 的 
的 是 为 了 更 加 准确 地 度量 相似 程度 。 各 相似 度 的 计算 公式 如 下 : 
Cos(x, y) 2 Xi yi : (x, y) @) 

Ve yy lxlyl 
Pearson(x, y) = 2 0 2 (| (4) 
46 -0,- 记 上 -中 下 

Simiisw (xX, y) = Pearson(x, y)+axP+PBxO, (5) 


(xy € Set(users)) 


Simi, 


式 (3) 为 原始 余弦 相似 度 ， 为 了 


式 (4) 为 皮尔 逊 相关 性 ,用 于 计算 
id， 式 (5)(6) 分 别 表 示 调 整 后 的 用 


PQ 分 别 表 示 流 行 度 和 好 评 度 ， 为 (-1,1)， 了 


人 淮 ， 负 表示 相似 度 惩罚 ; 
数 ， 正 值 。 
2.3.6 评分 的 预测 


E 值 ， 


ne 


相似 度 ， 其 中 


本 (ty)=cosO y)+axP+pxO,(x,y eSeit(litems)) 


(6) 


于 计算 物品 相似 度 ; 
户 相似 度 ， 其 中 
户 相 似 度 和 项 目 


x,y 表示 用 户 


由 于 基于 用 户 的 协同 过 


虑 推荐 能 够 很 好 的 发 


FE 表示 相似 度 正 向 补 
06 分 别 为 流行 度 阔 值 系数 和 好 评 度 参 


趣 ， 而 基于 物品 的 协同 过 滤 
新 推 基于 最 小 
矩阵 稀 玻 性 等 问题 


荐 结果 ， 


全 荐 能 够 对 根据 用 
二 乘法 的 矩阵 分 解法 
， 并 且 在 评分 的 准 


岗 用 户 洪 在 的 
户 行为 实时 更 


能 够 较 好 处 理 评分 
确 度 上 最 小 二 


乘 一 直 是 一 


个 Baseline， 所 以 本 文 在 完成 了 前 两 者 结合 的 


乘 进行 了 融合 , 为 的 是 充分 发 挥 各 


评分 结果 由 基于 


户 相似 度 的 预 涡 


I 评分 、 


测评 分 以 及 基于 最 小 二 乘法 的 矩 


得 


阵 分 解 


同时 ， 也 将 最 小 二 
自 算法 的 优势 。 最终 对 物品 的 
基于 物品 相似 度 的 预 
分 三 部 分 线性 加 权 求 


那么 对 于 没 一 个 单独 的 推荐 算法 的 预测 评分 的 总 体 计算 规 


则 , 本 文采 用 的 相似 度 乘 以 相似 对 
以 相似 度 的 总 和 。 


象 (用 户 或 


设 用 户 w 对 物品 i 的 预测 记 
述 如 下 : 


平分 v 则 预测 


计算 基于 用 户 的 协同 过 滤 推 荐 列表 
a) 找 到 用 户 的 个 近邻 。 
b) 找 出 每 一 个 的 个 近邻 用 户 对 项 目 i 的 所 


萄 品 ) 的 评分 再 除 


平分 的 求解 算法 描 


真实 评分 组 


201805.00375V1 


XIV: 


nn 


录用 稿 
成 的 集合 , 记录 为 Rating(x,i,v), 其 中 x 表示 对 i 有 过 评分 的 u 的 
k 个 近邻 。 


c. 利用 相似 度 与 真实 评分 相 乘 求 和 除 以 总 相似 度 ， 则 用 户 
u 对 项 目 i 的 预测 评分 如 式 (7); 


_ ZlSimi,, 


(Xx,uU) x Rating(x,i, v)] 


> Simi',s (X,U) 


Predict(u,i, V5), (7) 


Xx ESet(users) 
计算 基于 项 目的 协同 过 滤 推 荐 列表 
a) 找 到 用 户 w 评分 最 高 的 个 项 目 
b) 找 出 与 这 上 个 项 目 最 相似 的 项目 
c) 利 用 相似 度 与 真实 评分 相 乘 求 和 除 以 总 相似 度 
u 对 物品 i 的 评分 。 如 式 (8): 
DSimi,, i) x Rating(x,i,v)] 
DSimii,, (x,u) 


上 上 
pp 


w= 
) 1 可口 


Predict(u, i, V) ;om 


(8) 
XEesSet(items) 
dj) 基 于 最 小 二 乘法 的 矩阵 分 解 , 通过 损失 函数 最 小 化 , 迭代 
求解 最 优 隐 伟 特征 和 矩阵 U、YV 来 得 到 用 户 u 对 物品 i 的 评分 , 求 
出 最 优 的 矩阵 。 式 (9)(10) 分 别 为 最 小 二 乘法 的 损失 函数 和 预测 评 
分 表达 式 。 


ml f (U,V)= bo —u 可 say. Ur + nv ] (9) 


Predict(u,i,v),, =U, xV,,u e Set(users),i e Set(litems) (10) 


6) 最 终 的 推荐 结果 Predict(wu,iv) 的 预测 评分 等 于 基于 用 户 、 
起 于 项 目 以 及 最 小 二 乘法 计算 三 者 的 平均 预测 评分 。 评 分 表达 
式 如 式 (11) 所 示 ， 其 中 w,p,n 分 别 是 其 推荐 的 权重 。 


Predict(u,i,v) = @x Predict(u,i,v),,, + Ox Predict(u,i, Vv);, 


+7XPredict(u,i,V),,, +O+N=Lbu,xeSet(users),, (11) 
ie Set(items),v e Set(pref ) 
人 评分 的 更 新 。 与 相似 度 更 新 一 样 ,在 进行 推荐 更 新 之 前 ， 


需要 对 推荐 评分 列表 持久 化 。 评 分 列表 更 新 的 原则 是 , 更 新 前 后 
两 次 时 间 间 隔 内 相似 度 有 变化 后 的 那些 对 象 类 集 ， 重 新 计算 其 
E 荐 评分 列表 、 更 新 并 进行 持久 化 。 对 于 相似 度 没 有 变化 的 这 部 
分 推荐 列表 ， 直 接 从 数据 中 读 取 相 关 的 记录 进行 


E 存 。 


3 ”实验 以 及 其 结果 分 析 


测试 数据 集 

实验 数据 采用 了 UCI 公开 MovieLens 的 数据 集 以 及 
NetFlix 数据 集 ， 分 别 对 100K(10 万 条 ) 、1M( 约 100 万 条 )、 
10M( 约 1000 万 条 数据 ) 和 100M( 约 1 亿 条 数据 ) 进 行 了 四 组 实 
验 。 评 分 范围 是 (1-5)， 数值 越 大 表示 评价 越 高 ， 其 中 主要 用 到 
的 评分 数据 表 。 文 件数 据 格 式 表 1 所 示 。 


表 1 数据 格式 


3.1 


UserID MovieID Rating Timestamp 
j 户 编号 ”电影 编号 ”评分 时 间 戳 


ChinaXiv 合 作 期 二 
王 源 龙 ， 等 : 基于 Spark 的 混合 ho ol 和 
3.2 ”参数 设置 与 调试 
本 实验 所 有 关于 算法 的 参数 的 调试 与 配置 ， 均 只 对 
MoiveLens 数据 集 以 及 NetFlix 电影 评分 数据 集 负 责 。 其 他 数据 
集 不 保证 能 得 到 类 似 结果 。 
表 2 算法 参数 说 明 
基于 近邻 推荐 参数 最 小 二 乘 推荐 参数 
迭 
& 物品 流行 好 评 隐藏 正则 
、 、 近邻 代 
分 类 分 类 度 阐 度 阔 因子 项 系 
阔 值 次 
数量 数量 值 值 个 数 数 
8 16 >15 >45 >0.6 20 50 0.1 
3.3 结果 评估 


其 


1) 均 方差 根 误差 


对 于 评分 的 预测 ? 
误差 越 小 ， 预 测 值 与 实际 


确 度 , 常 采 月 


值 相差 越 小 ， 


上 均 方 根 误差 (RMSE) 来 评价 。 


准确 度 越 高 。 其 公式 为 


(12) 


Pp: rui 表示 用 户 对 对 
预测 的 评分 ， 


2) 


电影 i 的 实际 记 
|T 为 测试 集 总 量 。 
准确 率 与 召回 率 以 及 F1 


推荐 算法 


EF 分 ， Vui 是 通过 


股 


准确 率 和 召回 率 来 i 


率 表示 推 


如 相 


[本 | 


平 估 推荐 结果 的 好 坏 程度 。 


准确 


率 


物品 的 比例 。 准 确 率 与 召 蕊 


两 者 的 调和 


坏 。 


其 


下 


Pp: 4; 为 某 


般 是 指 


下 分 别 是 准确 率 ， 召 匠 


荐 物品 中 用 


荐 结果 中 用 户 真 正 感 兴趣 物品 


户 感 兴趣 的 


推荐 


萄 品 总 数 的 比例 ， 
5 用 户 所 有 感 兴趣 的 


率 两 者 一 般 呈 现 负 相关 


的 趋势 , 因此 ， 


平均 数 来 Fl 可 以 更 加 全 二 


地 衡量 整 


体 推荐 结果 的 好 


A 
py +B, 


率 以 及 调和 平均 值 的 计算 公式 


A 
Dp 


_ 2Prewn * Roa 


(13) 


中 


| 


3 户 推荐 并 且 是 用 


户 推 


荐 但 


物品 ，|U| 为 参与 评估 的 项 


户 感 兴趣 的 物品 , Bi 表示 为 某 用 


Pan 十 Re 


不 感 兴趣 的 物品 ，Ci 表示 某 用 户 感 兴趣 但 没 推荐 的 


数量 ， 2 


代表 平均 召 


pe 
3.4 


实验 与 测试 结果 如 下 。 本 实验 将 从 几 个 维 


估 。 


可 率 ，F1l 是 准 


确 率 与 召回 率 的 调和 平均 值 ， 


表示 1 
实验 


在 本 文中 


a) 各 算法 的 均 方 根 误差 。 各 个 算法 的 参数 均 为 本 实验 环 
数 的 情况 下 ， 改 进 的 混合 协同 过 滤 算 法 与 几 种 经 
协同 过 滤 算 法 的 预测 评分 的 均 方 差 误 差 如 图 


下 的 最 优 参 


确 度 和 召 区 


结果 与 分 析 


率 都 越 高 。 


Ph， 暂且 将 本 文 改进 算 


从 图 7 中 可 以 看 出 ， 在 同等 情况 1 
于 用 户 的 协 
小 , 也 比 Spark 下 自 带 的 最 小 二 乘法 的 ] 


同 过 滤 和 单纯 基于 物品 的 协同 过 滤 均 方 根 误差 更 加 


n 代表 平均 ; 住 确 率 ， Rmean 


Fl 值 越 


法 命名 为 HybirdCF， 其 相关 


度 将 对 本 算法 进行 评 


导 巍 


7 所 示 。 
， 改 进 的 算法 比 单纯 基 


匀 方 根 预测 误差 小 , 预测 
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更 加 准确 ， 说 明 算法 在 预测 准确 度 上 有 提高 。 
1;5 二 
| 0-877 0-904 
| 目 
HybirdC 
Y 机 UserCF ALS 
国 RMSE| 0.877 1.382 0.904 
图 7 HyBirdCF 与 传统 算法 的 均 方 根 误差 


b) 不 同 数据 } 
户 相似 度 阀 值 、4 


据 规模 的 均 方 根 误差 的 实测 情况 。 


值 、 误 差 推荐 阔 值 。 


规模 的 均 方 根 误差 。 算 法 参数 包括 分 类 数量 、 用 


勿 品 相似 度 阔 值 、 流 行 度 阔 值 、 好 记 


度 、 近 邻 阔 


是 准确 率 和 召回 率 的 调和 平均 数 , 可 以 看 出 , 反 


王 源 龙 ， 


Ooo0oo0o PP 
O 〇 iooPib 


8:883 0 和 
1 万 | 10 万 


inaX iy 合 作 期 于 | 


Ch 
: 基于 Spark 的 协同 过 


11.0.862 
0.283 


0Q.74 
0:684 0 


法 改进 与 实现 


万 


100 


1000 
万 


1 亿 


—#— Precise 


0.003 | 0.029 


0.283 


0.544 | 0.747 


一 村 一 Recall 


1.000 | 0.931 


0.862 


0.684 | 0.580 


—e—F1 


10 中 ,三 角 表 


0.003 | 0.027 


示 准 确 率 ， 方 


图 10 准确 率 、 召 回 率 以 及 F 值 变化 趋势 图 


0.244 


0.372 | 0.433 


图 8 为 算法 在 各 类 参数 最 优 条 件 下 , 不 同 数 


13 T1114 
a 0:974 0877 
0:5 
0 
10 万 | 100 万 1 亿 
| RMSE 1.114 | 0.974 0.877 
图 8 不同 数据 规模 对 HyBirdCF 评 


从 图 8 中 可 以 看 出 ， 改 进 算法 在 数据 量 


EE 越 大 的 时 候 ， 评 分 


误差 会 越 小 。 这 意味 着 , 评分 数据 越 多 ， 本 算法 将 可 能 会 得 到 更 


加 准确 的 结果 ， 所 以 也 要 防止 过 度 拟 合 的 情况 。 


9 改进 算法 在 不 同 增 量 规模 数 


图 反映 了 数据 规模 对 流 处 

80 

60 

心 

es 

20 Ss 10.32 

和 = [| 
10 万 100 郊 据 规模 ( 岳 ) 


图 9 反映 的 是 : 


坐标 表示 数据 实时 输入 的 数据 流 数据 规模 , 纵 匀 
理 增 量 模型 的 计算 耗 时 影响 。 


中 的 数据 是 每 一 秒 流 入 


配置 为 5 台 


75.34 


图 9 增 量 数据 的 耗 时 影 


局 下 实时 性 。 如 图 9 所 示 , 横 
E 标 表示 时 间 , 该 


1 亿 


首 量 数据 对 系统 推荐 的 实时 性 处 理 情况 。 医 


推荐 系统 的 评分 条 


目 数 。 可 以 看 出 , 对 于 
蕴 守 4 核心 主 频 3.5G，8G 内 存 的 PC 机 ， 效 果 比 较 


让 人 满意 。 也 依托 于 强大 的 处 理 能 力 和 实时 计算 的 处 理 机 制 , 才 


使 得 协同 算法 扩 


d) 在 算法 模型 


展 性 问题 得 到 了 很 大 的 改善 。 在 实际 情况 中 , 随 
着 集群 规模 的 扩大 ， 实 时 性 会 得 到 更 进 


昌 参 数 固 定 不 变 的 情况 下 ， 改进 算法 在 不 同 数 


据 规模 下 推荐 结果 准确 率 、 召 回 率 的 变 


旭 如 图 10 所 示 。 


区 表示 如 


率 ， 圆 形 表示 的 


E 荐 准确 率 在 随 着 


评分 数据 量 的 不 断 增 
在 缓慢 地 上 升 。 这 说 明 
率 在 一 定 程度 上 呈现 


大 而 增 大 ， 而 召回 


即 ; 和 


降低 , 表明 随 着 用 


尸 感 WW. 


率 却 不 断 在 减 小 Fl 值 
在 模型 参数 不 变 的 条 件 下 , 准确 率 与 召 匠 
负 相 关 的 趋势 ， 这 与 前 文 的 推测 是 相符 的 ， 
量 的 增多 而 提高 ， 但 相反 召回 率 会 相应 


趣 的 物品 的 增多 , 推荐 的 结果 将 会 更 加 


AAA 


准确 ， 推 荐 内 容 的 新 颖 性 将 会 逐渐 地 降低 ， 但 Fl 会 随 着 数据 的 


增加 而 不 断 增 大 。 
4 ”结束 语 

本 文 算法 从 算法 层面 与 平台 层面 ， 均 体现 出 了 集成 算法 学 
习 的 思想 ， 总 结 起 来 ， 可 概括 为 以 下 两 方面 : 

a) 从 算法 的 设计 上 层面 。 为 降低 相似 度 计算 的 复杂 时 间 复 杂 
度 , 减少 评分 的 稀疏 性 


相似 度 的 计算 上 , 运 / 


物 


以 及 物品 相似 度 分 别 进行 调 
加 接近 。 在 预测 评分 上 , 利用 近邻 的 TopN 的 相 1 
权 求 和 分 别 求 出 每 个 用 户 的 预 估 评分 推荐 列表 。 


列表 与 基于 最 小 


4 推荐 列表 三 个 推荐 列表 力 


最 终 的 推荐 列表 。 


度 上 的 权 值 。 


增 


兽 量 模型 是 不 断 地 将 新 的 相似 度 与 | 


更 新 是 依赖 于 相似 度 的 更 新 ， 对 每 个 ) 

本 实验 所 用 数据 为 公 月 
评分 数据 。 从 横向 来 看 , 算法 优化 与 设计 相对 合 
算法 在 给 定 测试 集 上 的 效果 比 预 区 
算法 相 比 于 已 往 此 类 型 的 推荐 算法 , 有 更 好 的 


上 。 基 于 Spark 分 布 式 计算 平台 ,利用 


实现 多 种 协同 过 滤 混 合 的 增 量 


增加 分 布 式 并 行 计算 的 可 能 可 能 性 。 在 
品 流行 度 、 好 评 率 等 因子 对 用 户 相似 度 
整 和 优化 ， 使 其 与 实际 的 相似 性 更 


以 度 以 及 评分 加 
将 上 述 两 推荐 
0 权 求 和 ， 得 到 


中 三 个 权 值 分 别 代表 不 同方 向 维度 上 的 权 
重 , 可 实现 动态 参数 调节 , 若 需 要 突出 某 一 个 维 
实时 参数 调节 , 得 到 最 优 的 推荐 参 
亦 可 以 调节 这 三 个 维 

b) 从 算法 运行 的 平台 J 
Spark Streaming 流 式 处 理 机 制 ， 


度 特性 , 可 进行 


数 , 若 想 发 现 用 户 的 某 些 偏好 ， 


推荐 模型 , 包括 相似 度 增 量 模 型 和 推荐 增 量 


模型 。 


其 中 ， 相 似 度 


相似 度 归 


持久 化 ， 增 量 


的 计算 对 持久 化 量 不 影响 ; 推荐 模型 亦 同 , 不 


] 的 是 推荐 内 容 的 


的 预测 误差 , 更 实时 的 


户 的 推荐 也 一 样 。 

有 数据 集 MoivesLens 和 NetFlix 电影 
里 , 从 纵向 来 看 ， 
的 要 好 。 实验 结果 表明 , 改进 
性 化 效果 , 更 小 


E 荐 效果 ,更 灵活 的 扩 


:性 ,在 评分 预测 


和 准确 度 以 及 扩 


展 性 上 都 有 不 同 程度 的 改善 和 提高 。 
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